KL-regularized reinforcement learning from expert demonstrations has proved successful in improving the sample efficiency of deep reinforcement learning algorithms, allowing them to be applied to challenging physical real-world tasks. However, we show that KL-regularized reinforcement learning with behavioral reference policies derived from expert demonstrations can suffer from pathological training dynamics that can lead to slow, unstable, and suboptimal online learning. We show empirically that the pathology occurs for commonly chosen behavioral policy classes and demonstrate its impact on sample efficiency and online policy performance. Finally, we show that the pathology can be remedied by non-parametric behavioral reference policies and that this allows KL-regularized reinforcement learning to significantly outperform state-of-the-art approaches on a variety of challenging locomotion and dexterous hand manipulation tasks.
translated by 谷歌翻译
基于得分的生成模型在密度估计和生成建模任务上表现出最新的性能。这些模型通常假设数据几何形状是平坦的,但已开发出最近的扩展来合成生活在Riemannian歧管上的数据。现有的加速扩散模型采样方法通常不适用于Riemannian设置,基于Riemannian得分的方法尚未适应数据集插值的重要任务。为了克服这些问题,我们介绍了\ emph {riemannian扩散schr \“ odinger桥}。我们提出的方法概括了扩散的schr \“ \ cite {debortoli2021neurips}中引入的odinger桥,向非欧国性分数设置超出了Riemannian Score的模型,并扩展第一次逆转。我们验证我们提出的关于合成数据以及真实地球和气候数据的方法。
translated by 谷歌翻译
观察到在训练期间重新定位神经网络,以改善最近的作品中的概括。然而,它既不在深度学习实践中被广泛采用,也不经常用于最先进的培训方案中。这就提出了一个问题,即何时重新定位起作用,以及是否应与正规化技术一起使用,例如数据增强,体重衰减和学习率计划。在这项工作中,我们对标准培训的经验比较进行了广泛的经验比较,并选择了一些重新定位方法来回答这个问题,并在各种图像分类基准上培训了15,000多个模型。我们首先确定在没有任何其他正则化的情况下,这种方法对概括始终有益。但是,当与其他经过精心调整的正则化技术一起部署时,重新定位方法几乎没有给予概括,尽管最佳的概括性能对学习率和体重衰减超参数的选择不太敏感。为了研究重新定位方法对嘈杂数据的影响,我们还考虑在标签噪声下学习。令人惊讶的是,在这种情况下,即使在存在其他经过精心调整的正则化技术的情况下,重新定位也会显着改善标准培训。
translated by 谷歌翻译
离线强化学习在利用大型预采用的数据集进行政策学习方面表现出了巨大的希望,使代理商可以放弃经常廉价的在线数据收集。但是,迄今为止,离线强化学习的探索相对较小,并且缺乏对剩余挑战所在的何处的了解。在本文中,我们试图建立简单的基线以在视觉域中连续控制。我们表明,对两个基于最先进的在线增强学习算法,Dreamerv2和DRQ-V2进行了简单的修改,足以超越事先工作并建立竞争性的基准。我们在现有的离线数据集中对这些算法进行了严格的评估,以及从视觉观察结果中进行离线强化学习的新测试台,更好地代表现实世界中离线增强学习问题中存在的数据分布,并开放我们的代码和数据以促进此方面的进度重要领域。最后,我们介绍并分析了来自视觉观察的离线RL所独有的几个关键Desiderata,包括视觉分散注意力和动态视觉上可识别的变化。
translated by 谷歌翻译
上下文匪徒的大多数非政策评估方法都集中在政策的预期结果上,该方法是通过最多只能提供渐近保证的方法来估算的。但是,在许多应用中,期望可能不是最佳绩效衡量标准,因为它不会捕获结果的可变性。此外,特别是在关键安全环境中,可能需要比渐近正确性更强的保证。为了解决这些局限性,我们考虑了对上下文匪徒的保形预测的新颖应用。给定在行为策略中收集的数据,我们建议\ emph {condormal非政策预测}(COPP),该数据可以在新目标策略下为结果输出可靠的预测间隔。我们提供理论有限样本的保证,而无需做出任何其他假设,而不是标准的上下文匪徒设置,并且与现有的合成和现实世界数据相比,经验证明了COPP的实用性。
translated by 谷歌翻译
深度学习中的最新工作重新想象了数据的表示形式,因为函数从坐标空间映射到基础连续信号。当神经网络近似此类功能时,这引入了更常见的多维阵列表示的引人注目的替代方案。关于这种隐式神经表示(INR)的最新工作表明,仔细体系结构搜索 - INR可以超越建立的压缩方法,例如JPEG(例如Dupont等,2021)。在本文中,我们提出了至关重要的步骤,以使这种想法可扩展:首先,我们采用最先进的网络稀疏技术来大大改善压缩。其次,引入第一种方法,允许在常用的元学习算法的内环中使用稀疏性,从而极大地改善了压缩和学习INR的计算成本。这种形式主义的普遍性使我们能够对各种数据模式提出结果,例如图像,歧管,签名距离功能,3D形状和场景,其中一些建立了新的最新结果。
translated by 谷歌翻译
神经压缩算法通常基于需要专门编码器和解码器体系结构的自动编码器,以实现不同的数据模式。在本文中,我们提出了Coin ++,这是一种神经压缩框架,无缝处理广泛的数据模式。我们的方法基于将数据转换为隐式神经表示,即映射坐标(例如像素位置)为特征(例如RGB值)的神经函数。然后,我们不用直接存储隐式神经表示的权重,而是存储应用于元学习的基础网络作为数据的压缩代码的调制。我们进一步量化和熵代码这些调制,从而导致大量压缩增益,同时与基线相比,将编码时间缩短了两个数量级。我们通过压缩从图像和音频到医学和气候数据的各种数据方式来证明我们方法的有效性。
translated by 谷歌翻译
高斯工艺是能够以代表不确定性的方式学习未知功能的机器学习模型,从而促进了最佳决策系统的构建。由于渴望部署新颖的科学领域的高斯过程,一种迅速增长的研究线路集中于建设性地扩展这些模型来处理非欧几里德域,包括黎曼歧管,例如球形和托尔。我们提出了概括这一类的技术,以模拟黎曼歧管上的矢量字段,这在物理科学中的许多应用领域都很重要。为此,我们介绍了构建规范独立核的一般配方,它诱导高斯矢量字段,即矢量值高斯工艺与几何形状相干,从标量值riemannian内核。我们扩展了标准高斯过程培训方法,例如变分推理,以此设置。这使得旨在使用标准方法培训的Riemannian歧管上的矢量值高斯流程,并使它们可以访问机器学习从业者。
translated by 谷歌翻译
We propose a method for training a deterministic deep model that can find and reject out of distribution data points at test time with a single forward pass. Our approach, deterministic uncertainty quantification (DUQ), builds upon ideas of RBF networks. We scale training in these with a novel loss function and centroid updating scheme and match the accuracy of softmax models. By enforcing detectability of changes in the input using a gradient penalty, we are able to reliably detect out of distribution data. Our uncertainty quantification scales well to large datasets, and using a single model, we improve upon or match Deep Ensembles in out of distribution detection on notable difficult dataset pairs such as Fashion-MNIST vs. MNIST, and CIFAR-10 vs. SVHN.
translated by 谷歌翻译
We show that Neural Ordinary Differential Equations (ODEs) learn representations that preserve the topology of the input space and prove that this implies the existence of functions Neural ODEs cannot represent. To address these limitations, we introduce Augmented Neural ODEs which, in addition to being more expressive models, are empirically more stable, generalize better and have a lower computational cost than Neural ODEs.
translated by 谷歌翻译